Nowy wymiar testowania sztucznej inteligencji
W ostatnich latach modele sztucznej inteligencji z łatwością radziły sobie z egzaminami matematycznymi na poziomie maturalnym. Dotychczasowe benchmarki, takie jak MATH czy GSM-8K, przestały być dla nich wyzwaniem. W tej sytuacji powstała potrzeba stworzenia zupełnie nowego sprawdzianu, który odróżni prawdziwe rozumowanie matematyczne od sprytnego zgadywania wzorców.
Tak narodził się projekt FrontierMath, opracowany przez firmę Epoch AI we współpracy z kilkudziesięcioma ekspertami z całego świata. Zawiera on zestaw 50 zadań o niespotykanym poziomie trudności, tworzonych tak, aby ich rozwiązania nie były dostępne w sieci.
Twórcy podkreślają, że każde zadanie zostało zaprojektowane w taki sposób, aby nie można go było znaleźć w bazach danych ani w publikacjach naukowych, co czyni egzamin wyjątkowo wiarygodnym testem zdolności modeli AI.
Najtrudniejszy poziom Tier 4
Szczególnie wymagający jest poziom Tier 4, nad którym pracowali doświadczeni matematycy i naukowcy. Dr Bartosz Naskręcki z UAM podkreśla, że jego zadanie wymagało 13 stron gęstego dowodu i kilkunastu lat doświadczenia naukowego.
Według badacza nawet wybitny matematyk potrzebowałby miesięcy, aby zrozumieć, jak zabrać się za część z tych problemów. Nic dziwnego, że najlepsze modele sztucznej inteligencji rozwiązały zaledwie kilka z nich.
Międzynarodowa współpraca nad zadaniami
Nad stworzeniem benchmarku FrontierMath pracowało około 30 ekspertów, którzy spotkali się w Berkeley. Podzieleni na grupy tematyczne – od teorii liczb po geometrię algebraiczną – testowali zadania na najnowszych modelach AI.
Wiele propozycji odrzucono, ponieważ systemy sztucznej inteligencji zbyt łatwo odnajdywały właściwą odpowiedź. Dopiero staranna selekcja i wspólna praca pozwoliły stworzyć zestaw naprawdę nieprzewidywalnych wyzwań.
Ostateczny zbiór liczy 50 zadań i został nazwany „egzaminem dla geniuszy”, bo jego stopień trudności przekracza możliwości nie tylko maszyn, ale i większości ludzi.
Głos polskiego matematyka
Dr Naskręcki zaznacza, że jego udział w projekcie był wyjątkową okazją, by sprawdzić, jak modele AI radzą sobie z problemami naukowymi. Wkładając całą swoją wiedzę w przygotowanie zadania, miał pewność, że systemy nie znajdą gotowego rozwiązania w literaturze.
Według niego FrontierMath pokazuje granicę między zdolnością maszyn do łączenia informacji a twórczością ludzkiego umysłu. To wciąż obszar, w którym człowiek ma zdecydowaną przewagę.
Reakcje środowiska naukowego
Benchmark spotkał się z uznaniem wielu autorytetów matematycznych. Fields medalists Terence Tao i Timothy Gowers podkreślili, że zadania mają wyjątkowy poziom trudności i przez długi czas pozostaną poza zasięgiem sztucznej inteligencji.
Profesor Igor Pak z UCLA stwierdził, że część problemów może okazać się niewykonalna dla AI nawet przez kolejne dekady. To potwierdza, że FrontierMath wyznacza nowy standard w testowaniu zdolności maszyn.
Znaczenie FrontierMath dla przyszłości
Nowy benchmark jest czymś więcej niż tylko testem. To narzędzie, które pozwala obserwować, w jakim tempie rozwijają się modele sztucznej inteligencji i gdzie leży granica ich możliwości. Już dziś wiadomo, że niektóre systemy zaczynają osiągać wyniki porównywalne do ambitnych studentów doktoranckich.
Z drugiej strony FrontierMath przypomina, że AI – mimo imponujących osiągnięć – wciąż nie potrafi generować nowych koncepcji. Nie wymyśli oryginalnych hipotez ani przełomowych teorii. W tej roli człowiek pozostaje niezastąpiony.
Według dr. Naskręckiego przyszłość nauki będzie polegać na zadawaniu odważnych pytań i proponowaniu nieoczywistych rozwiązań. To właśnie te zdolności staną się największą przewagą człowieka nad maszynami.
